AI资讯新闻榜单内容搜索-Claude3 Op

陈丹琦团队新作：微调8B模型超越Claude3 Opus，背后是RLHF新平替

比斯坦福DPO（直接偏好优化）更简单的RLHF平替来了，来自陈丹琦团队。该方式在多项测试中性能都远超DPO，还能让8B模型战胜Claude 3的超大杯Opus。而且与DPO相比，训练时间和GPU消耗也都大幅减少。

来自主题: AI资讯

10190 点击 2024-05-27 16:39